Umělá inteligence už skoro dočetla internet, vývoj to nejspíš nezpomalí

Autor

Seznam Zprávy - Matouš Lázňovský

Publikováno

6. února 2025

Doslova explozivní zlepšování AI bylo v minulých letech z velké části poháněno zvětšováním neuronových sítí a jejich trénováním na stále větším množství dat. Teď už AI dostupná data takřka vyčerpala, ale v rozletu jí to nebrání.

Odkaz na originální článek


„Zvětšování“, či správně škálování, se ukázalo při zlepšování velkých jazykových modelů, které jsou jádrem současných umělých inteligencí, překvapivě účinné. A to jak při tom, co mají tyto modely v popisu práce – tedy schopnosti vládnout jazykem – tak i v rozvoji dalších vlastností.

Situaci před časem vyčíslila studie skupiny Epoch AI. Autoři v ní předpověděli, že kolem roku 2028 bude průměrná velikost datové sady používané k trénování AI modelů stejná, jako je celkový objem veřejně dostupného online textu. Jinými slovy umělé inteligenci podle tohoto odhadu pravděpodobně dojdou v dohledné době data, která velká část dnešních modelů používala.

Slova, slova, slova

Vývoj LLM v uplynulém desetiletí ukázal jejich nenasytnou chuť po datech. Přestože většina vývojářů nezveřejňuje specifikace svých nejnovějších modelů, odhaduje se, že počet tokenů neboli částí slov používaných k trénování LLM se od roku 2020 zvýšil zhruba o dva řády, ze stovek miliard na desítky bilionů.

Kde brát?

Nedostatek dat představuje největší problém pro další „zvětšování“, tedy škálování AI. Určité možnosti ovšem existují.

Řada výzkumníků a vědců v posledních letech uvažovala, že roboti s umělou inteligencí by se mohli učit ze svých vlastních smyslových zkušeností, případně dokonce virtuálních smyslových zkušeností. Možnosti AI by to mohlo ještě rozšířit, protože už nebude trénovat jen na „slovech“.

Syntetika

Data se také dají vyrobit. Některé AI společnosti platí lidem za generování obsahu pro trénování AI (třeba zmíněné řešení programátorských problémů). Jiné používají pro trénink AI umělá data vytvořená jinou AI. To je pochopitelně potenciálně obrovský zdroj.

Odborníci se dnes víceméně shodují, že syntetická data nejspíš mohou fungovat pro režimy, ve kterých existují pevná, identifikovatelná pravidla, jako je šach, matematika nebo programování. AI nástroj AlphaGeometry se podařilo úspěšně vytrénovat k řešení geometrických úloh pomocí 100 milionů čistě „syntetických“ příkladů.

Syntetická data se také již používají v oblastech, kde je reálných málo nebo je jejich využití problematické. Týká se to například medicíny: Syntetická data nepředstavují problém z hlediska ochrany osobních údajů. V případě „výcviku“ softwaru pro samořídicí automobily zase hraje roli skutečnost, že během virtuálních dopravních nehod se nikomu nic nestane.

Problémem syntetických dat je, že mohou obsahovat neodhalené chyby, které mohou svést model na scestí. Jedna studie z roku 2023 pro tento problém zavedla termín s chytlavou anglickou zkratkou MAD („Model Autophagy Disorder“) aby popsala, jak se AI model může tímto způsobem „zbláznit“. Například model v důsledku těžko odhalitelných zkreslení v umělých tréninkových datech začal rychle tvořit z lidského hlediska bizarní obličeje.